这项由香港中文大学、上海人工智能实验室、乔治亚大学、牛津大学以及深圳鹏城实验室联合开展的研究,于2026年5月发布在预印本平台arXiv上,论文编号为arXiv:2605.06642。研究提出了一个名为StraTA(Strategic Trajectory Abstraction,战略轨迹抽象)的全新框架,致力于解决AI智能体在长时间复杂任务中"走一步看一步"的根本性缺陷。

你有没有遇到过这样的情况:和朋友打牌时,有人每次只盯着眼前那张牌,完全没有全局意识,最终一步步把自己逼进死角?而高手则不然——他们在看到牌局开始的那一刻,心里就已经有了大致的作战计划,每一步行动都在朝着这个计划推进。现在,AI领域也面临着同样的问题,而这篇论文正是为了帮AI学会"高手打牌"的本领。

当前,像ChatGPT这样的大语言模型(LLM)越来越多地被部署为能与外部世界交互的"AI智能体"——它们能搜索网页、操作电脑、甚至做科学实验。然而,研究人员发现,这些智能体普遍存在一个深层缺陷:它们在每一步行动时,只能看着当前的环境状态,然后决定下一步做什么,对全局方向几乎没有概念。这就导致了三个典型问题:目光短浅(只看眼前,不顾长远)、无效绕路(在原地反复打转)、行为前后矛盾(这一步说要找A,下一步又去找B)。

StraTA的核心思路,就是在AI开始执行任务之前,先让它给自己定一个"战略"。这个战略就像是一张地图,之后每一步的具体行动都要参照这张地图来进行。听起来简单,但实现起来需要一整套精密的训练机制。

一、为什么AI智能体总是"走一步看一步"

在正式介绍StraTA之前,有必要先搞清楚AI智能体训练的基本逻辑,以及为什么现有方法会产生"短视"问题。

以一个常见的场景为例:让AI智能体在一个模拟的网购平台上帮你找一双"高密度、孪生尺寸、价格低于550美元的弹簧床垫"。这个任务需要AI先搜索,再浏览结果页,再点进去看详情,再判断是否符合要求,再决定是否购买——整个过程可能需要十几步甚至更多,而且每一步的决策都会影响后面的走向。

现有的主流训练方法,比如强化学习(Reinforcement Learning),基本思路是让AI不断尝试,根据最终结果(成功或失败)来调整自己的行为策略。其中有一种叫做GRPO(Group Relative Policy Optimization,组相对策略优化)的方法,是最近非常流行的技术路线:对于同一个任务,让AI做多次尝试,看看哪些尝试成功了,哪些失败了,然后鼓励AI向成功的方向靠拢。

但这里有一个根本性的困难:在长达几十步的任务中,最终的成功或失败是一个结果,而这个结果需要被"归因"到每一步具体行动上——究竟是哪一步导致了成功,哪一步埋下了失败的伏笔?这个问题在学术上叫做"信用分配"(credit assignment),是长时决策任务中最棘手的难题之一。

同时,现有方法在"探索"方面也很受限。由于没有全局方向感,AI在尝试不同策略时,往往只是在细节上做微小变化,而不能真正尝试完全不同的解决思路。就像一个没有战略的棋手,每次下棋都只是换了几个细节操作,从来没有真正尝试过完全不同的开局布局。

二、战略先行:StraTA框架的核心思想

StraTA的解法听起来很朴素,却抓住了问题的本质。

在每次执行任务开始之前,AI会先生成一段简短的自然语言"战略"。这段战略不是具体的步骤清单,而是对整个任务的高层次规划,比如"先通过搜索关键词定位候选产品,然后根据用户要求筛选价格和规格,找到最符合条件的选项购买"。这段战略一旦生成,就会被固定下来,并在后续的每一步行动中作为背景提示,始终陪伴着AI的决策过程。

可以把这个机制理解为:AI在出发前给自己写了一张"任务简报",之后不管走到哪一步,都要时刻对照这张简报来行动。这与人类解决复杂问题的方式高度一致——人们通常先在脑海中形成一个大致计划,然后在执行过程中随时参照这个计划调整具体动作。

这样做的好处是显而易见的:整个长时任务被拆解成了两个更简单的子任务。第一个是"想出一个好战略",第二个是"按照战略执行动作"。这两个子任务各自相对独立,AI可以针对每一个分别优化,而不必在每一步都同时考虑"下一步该怎么做"和"整体方向是什么"这两个互相干扰的问题。

三、分层训练:让战略和行动都能被有效学习

StraTA不仅提出了"战略先行"的思路,还设计了一套精密的训练机制来确保AI能真正学会生成好战略、执行好动作。

对于同一个任务,AI会先生成N个不同的战略,然后在每个战略下分别执行M次完整的任务尝试。这样一来,总共有N×M条完整的执行轨迹。这个设计形成了一个两层的对比结构:在战略层面,N个不同战略之间可以相互比较,哪个战略下的任务成功率更高,AI就应该倾向于生成那类战略;在行动层面,同一个战略下的M次尝试之间也可以相互比较,哪些具体动作序列更容易成功,AI就应该更多地输出那些动作。

这里有一个特别巧妙的设计:在评估一个战略的"好坏"时,研究团队没有简单地取M次执行的平均成功率,而是只看表现最好的那一部分(具体来说是成功率最高的前50%的执行结果)。这背后有一个深刻的道理:一个战略即便是好的,在执行早期AI还不熟练的时候,也可能经常因为执行失误而失败。如果把所有执行结果一起平均,好战略会被糟糕的执行拖累,导致AI认为那个战略没价值。只看最好表现,就能更准确地反映这个战略本身的潜力,而不是被执行噪音所干扰。

除了主要的成功/失败奖励,训练系统还引入了两个辅助惩罚机制。其一是长度惩罚:如果AI的回答过长,超出了预设的限制,就会被扣分——这是为了防止AI养成"废话连篇"的坏习惯。其二是格式惩罚:如果AI的输出格式不对、环境无法识别,也会被扣分——这保证了AI的输出始终可被实际执行。

四、多样性探索:让AI不要每次都想到一样的战略

即便有了上述的分层训练机制,研究团队很快发现了另一个问题:当AI被要求生成N个不同战略时,即便调高了"随机性"参数,生成出来的N个战略往往大同小异,只有细节上的微小差异,并没有真正不同的思路。这就好像让你用头脑风暴想出10个解决问题的方案,但你每次都只是在同一个思路上做微调,从来不敢跳出固有框架。

为了解决这个问题,研究团队引入了一个叫做"最远点采样"(Farthest Point Sampling)的技术。具体操作分两步:首先,系统会让AI生成远超N个的候选战略(比如设定过采样比例σ=8,就生成8N个候选战略);然后,系统会用一个文本理解模型把每个战略转换为一个数学向量,并在这些向量构成的"语义空间"中,用一种贪心算法挑选出N个彼此之间"距离最远"的战略——也就是语义内容最不相似的那N个。

这个过程就像是在一个地图上撒了很多点(候选战略),然后从中挑选出分布最均匀、覆盖最广的N个点,确保这N个战略能代表尽可能不同的解题思路。这样一来,战略层面的比较就变得更有意义了:AI能看到真正不同的策略方向之间的成败对比,而不是一堆大同小异的变体。实验结果也验证了这一点——加入多样性采样后,AI在ALFWorld环境中的整体成功率从79.0%提升到了87.9%。

五、自我审判:让AI回头检查自己有没有乱走步

StraTA引入的第三个关键机制叫做"批判性自我判断"(Critical Self-judgment),专门用来解决"信用分配"这个老大难问题。

在传统的强化学习框架下,一次任务执行完成后,AI只会收到一个最终的成功/失败信号,这个信号会被均等地分配给轨迹中的每一步行动。但这显然不够精确:有些步骤确实推进了任务,有些步骤纯粹是在浪费时间,还有些步骤可能根本就违背了战略方向。把同样的信号分配给所有步骤,AI就没法辨别哪些是好动作、哪些是坏动作。

StraTA的解法是:在每次任务执行完成后,让AI回过头来,对照自己最初制定的战略,检查整条执行轨迹中有没有"问题步骤"。所谓问题步骤,是指那些既没有跟随战略指导、也没有实质性地推进任务目标的步骤——换句话说,就是既违背了计划、又没有任何实际贡献的废棋。一旦某个步骤被认定为"问题步骤",AI就会在这个步骤上额外获得一个惩罚分数(参数κ=0.1,就是扣除0.1分)。

这个机制的巧妙之处在于,AI是在批判自己——它既是"运动员",又是自己的"裁判员"。研究团队将这种方式定义为"LLM-as-a-judge"(用大语言模型当裁判)的一种应用。不同于很多方法需要额外训练一个独立的裁判模型,StraTA直接用同一个AI来完成自我评估,不增加额外的模型开销。实验证明,加入这一机制后,AI在WebShop购物环境中的成功率从64.0%提升到了66.7%。

六、三场考试的成绩单:StraTA在真实任务中表现如何

研究团队在三个代表性的AI智能体测试平台上验证了StraTA的效果,涵盖了家庭操控、网络购物和科学实验三个完全不同的场景。

第一个测试环境叫ALFWorld,是一个纯文字描述的模拟家居场景。AI扮演一个机器人助手,需要根据指令完成各种家务任务,比如"把纸巾盒放到床头柜上"或者"把苹果加热后放进冰箱"。每个任务最多允许50步操作。这个测试涵盖了六类子任务:捡取物品、在特定条件下查看物品、清洁物品、加热物品、冷却物品、以及把两件物品放到同一地点。

第二个测试环境是WebShop,模拟了一个真实的网购场景。AI需要根据用户的详细购物要求(包括材质、尺寸、价格等多维度条件),在一个有50个商品结果的虚拟商城中,通过搜索、浏览、比较,最终选购到最符合要求的商品。每个任务最多15步。

第三个测试环境是SciWorld,是三个环境中最难的一个。它模拟了小学五年级水平的科学实验场景,AI需要执行各种程序性推理任务,比如测量物体属性、进行化学混合、寻找特定物品、以及判断哪种动物寿命最长等。每个任务最多20步。

在ALFWorld测试中,使用7B(70亿参数)规模的基础模型时,StraTA达到了93.1%的整体成功率,比此前最强的基于强化学习的方法GiGPO(Group-in-Group Policy Optimization)高出了约2.3个百分点。在六类子任务中,"查看"类任务的成功率从82.7%大幅提升到了92.3%,"捡取两件物品"类任务也从79.2%提升到了81.9%。

在WebShop测试中,StraTA的优势更加显著。7B模型的整体成功率达到了84.2%,而GiGPO的成功率只有72.8%,提升幅度高达11.4个百分点。即便是使用参数量少得多的1.5B(15亿参数)模型,StraTA也达到了82.5%的成功率,比GiGPO的1.5B版本高出了17.5个百分点——这说明StraTA的框架设计本身带来了实质性的效率提升,而不仅仅是靠更大的模型取胜。

在最具挑战性的SciWorld测试中,StraTA的7B模型达到了63.5%的综合得分。要知道,GPT-5.1这样的顶尖商业模型在这个测试上的得分只有43.0%,Claude-4-Sonnet得分57.4%,Gemini-2.5-Flash得分49.6%——StraTA以一个开源的7B规模模型,在综合得分上超越了所有这些商业闭源模型。尤其值得一提的是,在"寿命推断"(Lifespan)这个子任务上,StraTA取得了满分100.0%的完美成绩。

七、拆开看看:每个零件究竟贡献了多少

为了验证StraTA各个组成部分的实际效果,研究团队做了一组精心设计的消融实验——也就是逐个拆掉某个组件,看看缺少它之后性能会下降多少。

实验使用的是3B规模的基础模型(Qwen2.5-3B-Instruct),在ALFWorld和WebShop两个环境上进行测试,共设计了三个对比版本。第一个版本叫"Vanilla"(朴素版),只保留StraTA的核心框架——战略生成、分层训练和战略质量估计——不加入任何额外技巧。第二个版本叫"Diverse",在朴素版基础上只加入多样性采样技巧。第三个版本叫"Judgment",在朴素版基础上只加入批判性自我判断机制。

实验结果显示,即便是朴素版,在ALFWorld上已经达到了79.0%的成功率,在WebShop上达到了64.0%,都显著优于没有战略引导的普通GRPO方法。加入多样性采样后,ALFWorld的成功率大幅跃升至87.9%,提升了近9个百分点,而WebShop的成功率提升相对有限(从64.0%到64.6%)。加入自我判断机制后,WebShop的成功率从64.0%提升到66.7%,而ALFWorld的提升相对有限。最终把两个技巧都加上,ALFWorld达到88.6%,WebShop达到73.4%——两个技巧的效果在很大程度上是互补的,各自主攻不同类型的任务。

研究团队还分析了关键超参数的影响。过采样比例σ越大,效果越好——从σ=1(不做多样性采样)到σ=8,ALFWorld的成功率从81.9%一路提升到88.6%,印证了策略多样性的重要性。战略质量评估时取前多少比例的表现(参数δ)也有讲究:δ=0.1(只看最好的10%)因为样本太少导致估计不稳定,δ=1.0(取全部平均)因为被低质量执行拖累而效果变差,δ=0.5(取最好的前50%)表现最佳。自我判断惩罚的权重κ也需要适中,太小(0.01)则效果不明显,太大(1.0)则过度依赖自我判断的准确性,反而引入噪音,κ=0.1最为合适。

八、算力开销:好用的方法贵不贵

任何一个新方法,如果训练成本大幅增加,实用价值就会大打折扣。研究团队也专门分析了StraTA的计算效率。

从理论角度看,StraTA对每个任务会生成N个战略,每个战略下执行M条轨迹,每条轨迹最多H步,所以总共需要N×M×H步行动交互,以及N×M次自我判断。当H足够大时(在任务较长的情况下,H通常是主要开销),N×M次判断相当于N×M条轨迹总步数的1/H,可以忽略不计。多样性采样用到了一个轻量级的文本嵌入模型(MiniLM-L6)来计算语义相似度,这个模型非常小,每次计算只需要几毫秒。因此,StraTA的总体计算量与普通GRPO方法(组大小设为N×M时)基本相当。

从实测数据看,每个训练步骤的实际时间:PPO需要约1758秒(即约29分钟),GRPO只需要约418秒(约7分钟),StraTA需要约580秒(约10分钟)。StraTA比GRPO慢约38%,但远比PPO快得多,而且性能提升幅度远超这点额外时间的代价。在StraTA内部,战略生成阶段约花202秒,训练阶段约175秒,多样性采样只需约6秒,自我判断只需约6秒——两个核心技巧加起来的额外开销仅约12秒,不到主体流程的4%。

说到底,StraTA这项研究解决的是一个看似简单、实则根本性的问题:AI在做复杂任务时应该先想清楚大方向,而不是每一步都从零开始判断。研究团队通过引入"战略先行"的设计,再配上分层训练、多样性探索和自我反思三个机制,让AI智能体在多个测试中取得了显著的进步,甚至以小规模的开源模型超越了顶尖的商业AI系统。

当然,这项研究本身也坦承了局限性。最核心的一点是:StraTA在任务开始时生成战略并将其固定,但如果任务执行过程中遇到了完全意外的情况(比如网购时发现所有商品都缺货),固定的战略就可能变成束缚。研究团队也指出了下一步的方向,包括实现"动态战略修订"(执行过程中能更新战略)、探索更丰富的战略表现形式,以及将这套框架推广到更广泛的AI智能体任务中。

归根结底,这项研究揭示了一个对人类和AI都通用的道理:在复杂任务中,事先规划与边走边想同样重要——甚至更重要。有兴趣深入了解技术细节的读者,可以通过论文编号arXiv:2605.06642查阅完整原文。

Q&A

Q1:StraTA框架中的"战略"具体是什么形式?AI是怎么生成的?

A:StraTA中的"战略"是一段简短的自然语言文本,由AI在看到任务描述后自主生成。它不是分步骤的详细指令,而是对整个任务的高层次规划,比如"先搜索关键词定位候选产品,再根据价格和规格筛选,找到最符合条件的购买"。这段文字在任务开始时生成一次,之后固定不变,在每个行动步骤中都会作为背景信息提供给AI,帮助其保持方向一致性。

Q2:StraTA和普通强化学习方法GRPO相比,最本质的区别是什么?

A:普通GRPO方法在每个任务上只生成多条完整执行轨迹,然后根据成败比较这些轨迹。StraTA则在此基础上增加了一层结构:先生成多个不同的"战略",再在每个战略下分别执行多次。这样既能比较不同战略之间的优劣(战略层面),又能比较同一战略下不同执行方式的好坏(行动层面),形成了双层学习信号,让AI能分别优化"想什么"和"怎么做"两个能力。

Q3:StraTA在SciWorld上为什么能超过GPT-5.1这样的商业顶尖模型?

A:SciWorld是一个需要执行多步程序性推理的科学实验任务,任务链条长、需要全局规划能力。GPT-5.1等商业模型虽然知识储量大,但在这种需要长时序贯决策的任务中,没有经过专门的强化学习训练,容易出现短视和行为不一致的问题。StraTA通过战略引导和专项强化学习训练,让7B规模的开源模型在这类任务上的规划连贯性大幅提升,最终在综合得分上以63.5%超越了GPT-5.1的43.0%和Claude-4-Sonnet的57.4%。